首页> 外文OA文献 >A Communication Efficient and Scalable Distributed Data Mining for the Astronomical Data
【2h】

A Communication Efficient and Scalable Distributed Data Mining for the Astronomical Data

机译:一种通信高效,可扩展的分布式数据挖掘方法   天文数据

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

In 2020, ~60PB of archived data will be accessible to the astronomers. But toanalyze such a paramount data will be a challenging task. This is basically dueto the computational model used to download the data from complexgeographically distributed archives to a central site and then analyzing it inthe local systems. Because the data has to be downloaded to the central site,the network BW limitation will be a hindrance for the scientific discoveries.Also analyzing this PB-scale on local machines in a centralized manner ischallenging. In this virtual observatory is a step towards this problem,however, it does not provide the data mining model. Adding the distributed datamining layer to the VO can be the solution in which the knowledge can bedownloaded by the astronomers instead the raw data and thereafter astronomerscan either reconstruct the data back from the downloaded knowledge or use theknowledge directly for further analysis.Therefore, in this paper, we presentDistributed Load Balancing Principal Component Analysis for optimallydistributing the computation among the available nodes to minimize thetransmission cost and downloading cost for the end user. The experimentalanalysis is done with Fundamental Plane(FP) data, Gadotti data and complexMfeat data. In terms of transmission cost, our approach performs better thanQi. et al. and Yue.et al. The analysis shows that with the complex Mfeat data~90% downloading cost can be reduced for the end user with the negligible lossin accuracy.
机译:2020年,天文学家将可获取约60PB的存档数据。但是,分析这样一个至关重要的数据将是一项艰巨的任务。这基本上是由于使用了计算模型,该计算模型用于将数据从复杂的地理分布的档案中下载到中心站点,然后在本地系统中进行分析。由于必须将数据下载到中心站点,因此网络带宽限制将成为科学发现的障碍。此外,在本地计算机上以集中方式分析此PB规模也极具挑战性。在这个虚拟天文台中,这是朝着这个问题迈出的一步,但是,它没有提供数据挖掘模型。将分布式数据挖掘层添加到VO可以是一种解决方案,其中可以由天文学家下载知识而不是原始数据,然后天文学家可以从下载的知识中重建数据或直接使用知识进行进一步分析。因此,本文,我们提出了分布式负载平衡主成分分析,用于在可用节点之间最佳地分配计算,以最大程度地减少最终用户的传输成本和下载成本。实验分析是通过基本面(FP)数据,Gadotti数据和complexMfeat数据完成的。在传输成本方面,我们的方法比Qi表现更好。等。和岳等人分析表明,使用复杂的Mfeat数据,最终用户的下载成本可以降低90%,而损失的准确性可以忽略不计。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号